2023-ICML-A Universal Unbiased Method for Classification from Aggregate Observations

Introduction

完全なラベルで学習することがDNNの性能を引き上げる重要な要素だが、プライバシーや機密性、アノテーションコストの高さから個々のインスタンスについてのラベルを詳細には与えることはできず、ある程度のインスタンスグループに対してのラベルのみ与えられる場合がある。

ユーザ情報のプライバシーのため、グループで○○という統計量だったと開示するなど。あとは薬物活性予測でもグループごとにラベルがついたりする。

集合観測=Aggregate Observationによる分類タスク、CFAO(Classification from Aggregate Observation)は必要である。

よくあるのが、Multi-instance Learning。グループ内で○○のラベルを持つデータは少なくとも1つはある、というように。

また、ラベルの割合から学習するLearning from Label Proportionもある。

2つのペアの類似度で学習するClassification from Pairwise Similaritiesもある。

先行研究におけるCFAOは、普遍的な手法は最大尤度推定に基づいていた。だが、それではグループ内ですべてのサンプルで○○の性質を持っていると推定するものであり、リスク一貫性が保証されない(学習を進めても真のLabelで学習したものと同じ収束先にはいかない)。そして対数尤度を使うので、損失関数が限られている。

この論文では、不偏推定量を提案した。

事前知識

CFAO

グループについての統計量からの分類学習を考える。これは以下のように定義される。

$\mathbf{x}_{1:m} = \{ \mathbf{x}_1, \cdots, \mathbf{x}_m \}$ 　このように各グループが与えられる。
- 与えられはしないが、真のラベルは $y_{1:m} = \{ y_1, \cdots, y_m \}$ である。
- 与えられるのは、表現空間 $Z$ にあるAggregate Labelの $z \in Z$ である。
- Aggregation Labelはある関数 $g : Y^m \to Z$ で写像される。
目標は、 $(\mathbf{x}_{1:m}, z)$ を与えられて、正しく各サンプルについて、 $y$ を予測すること。

具体例としては、

$m=2$ の場合は、2つのデータが同じか違うか。
$m=3$ の場合は、大小関係が $d(y_1,y_2) < d(y_1, y_3)$ かどうか。
$m \geq 2$ の場合、1つでもPositiveはあるか。
$m \geq 2$ の場合、ラベルの比率がどうなっているか。
$m = 2$ の場合、2つのデータの順位付け $y_1 > y_2$ かどうか。

そのうえで、グループの中に属しているデータは独立であるという仮定を持つ。

p(y_{1:m} | \mathbf{x}_{1:m}) = \prod_{i=1}^m p(y_i|\mathbf{x}_i)

これを踏まえると以下のように、 $p(\mathbf{x}_{1:m}, y_{1:m}, z)$ は以下のように計算できる。

提案手法

不変リスク推定量

不変リスク推定量は以下のようになる。

ここでは、

各サンプル $\mathbf{x}_i$ に対して、考える。真のラベルが $y_i=j$ だとしたときの損失と、それが $y_i = j$ となり、Aggregation Labelも $z$ になる条件付確率を乗じる。
これを各ラベル、各サンプルについて合算する。
全部で $m$ サンプルあるので、 $1/m$ で平均をとる。そして確率は、ラベル条件をなくした $p(z|\mathbf{x}_{1:m})$ で正則化する。

つまり、なる確率が低いラベルに対しては重みを減らしていくことで、すべてのラベルだった場合の損失を計算している。

これを経験的に最小化すると、以下のようにできる。

現実的には、どのように $p(z|\mathbf{x}_{1:m})$ と $p(z, y_i | \mathbf{x}_{1:m})$ を推定するのが問題となる。もちろん集約関数 $g : Y^m \to Z$ によってもそれぞれが違う推定方法をとるだろう。

EMの視点からの分析

$p(z, y_i | \mathbf{x}_{1:m}) / p(z|\mathbf{x}_{1:m}) = \omega_{y_{1:m}}$ を推定したい。

これについて対数尤度 $\log p(z|\mathbf{x}_{1:m})$ を最大化する学習を考える。それをするには隠れ変数の $y_i$ がカギを握る。なので、これはEMアルゴリズムを考えられる。

📄EM Algorithmの解説のなかの $q(Z)$ はここでは $\omega_{y_{1:m}}$ にあたる。

\log (p(z|\mathbf{x}_{1:m})) \geq \sum _{y_i} \omega_{y_{1:m}} \log (p(y_i , \mathbf{x}_{1:m}) / \omega_{y_{1:m}})

Eステップでは $q(Z) = p(Z|X)$ と今時点での推定を代入することにあたる。ここでは、 $p(y_i|\mathbf{x}_{1:m})$ のパラメタを固定して、 $p(z, y_i | \mathbf{x}_{1:m}) / p(z|\mathbf{x}_{1:m}) = \omega_{y_{1:m}}$ を計算する。

Mステップでは、 $\mathbb{E} _{Z|X, \theta _{old}}[\log p(X, Z|θ)]$ を最大化する。これは今の推定した $\omega_{y_{1:m}}$ に基づいて、 $\log p(X, Z | \theta)$ においての期待値に相当する $\sum _{y_i} \omega_{y_{1:m}} \log (p(y_i , \mathbf{x}_{1:m}) / \omega_{y_{1:m}})$ を最大化することにあたる。

ここで、右辺は $z$ という与えられている変数ともjoint distributionである $\omega_{y_{1:m}} \log p(y_i ,\mathbf{x}_{1:m}, z)$ でないといけないが、今回 $z$ の影響はhidden labelの $y_i$ のイテレーションにのみ影響し、 $p(y_i, \mathbf{x}_{1:m}, z) = p(y_i, \mathbf{x}_{1:m})$ が成り立つから外している(Ground Truthのラベルから $z$ を計算するし)